Асирян Александр Камоевич, 428 группа Из списка дискуссий рекурсивно выделяются все сообщения с соответсвующими им полями 'insult' (для тренировки, если поля 'insult' нет, то сообщение не добавляется). Далее с помощью TextStats и двух CountVectorizer'ов выделяются признаки. TextStats выделяет уровень вложенности сообщения, количество предложений и количество тех слов, которые скорее всего встретились бы в оскорблении и не оскорблении(dirphr+indirphr/notins). Далее признаки подаются на вход TfidfTransformer'у. Классификатор - Passive Aggressive. Были рассмотрены как другие классификаторы, так и другие параметры выбранного. С помощью GridSearchCV и cross_validation(StratifiedKFold(n_folds=10)) был выбран лучший из них. Предсказания так же рекурсивно помещаются в неразмеченные дискуссии. http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.PassiveAggressiveClassifier.html